A partir del siguiente dataset, se solicita trabajar sobre las siguientes consignas:

1. Exploración de datos:

Explore y explique en que consiste el dataset utilizando herramientas de exploración de datos.

a. Releve las características de los atributos.

str(MPI_subnational)
## spec_tbl_df [984 × 8] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
##  $ ISO country code                 : chr [1:984] "AFG" "AFG" "AFG" "AFG" ...
##  $ Country                          : chr [1:984] "Afghanistan" "Afghanistan" "Afghanistan" "Afghanistan" ...
##  $ Sub-national region              : chr [1:984] "Badakhshan" "Badghis" "Baghlan" "Balkh" ...
##  $ World region                     : chr [1:984] "South Asia" "South Asia" "South Asia" "South Asia" ...
##  $ MPI National                     : num [1:984] 0.295 0.295 0.295 0.295 0.295 0.295 0.295 0.295 0.295 0.295 ...
##  $ MPI Regional                     : num [1:984] 0.387 0.466 0.3 0.301 0.325 0.313 0.319 0.25 0.245 0.384 ...
##  $ Headcount Ratio Regional         : num [1:984] 67.5 79.3 59.7 55.7 61 65.1 61.4 49.4 47.4 74.6 ...
##  $ Intensity of deprivation Regional: num [1:984] 57.3 58.8 50.3 54.1 53.3 48.1 52 50.6 51.6 51.5 ...
##  - attr(*, "spec")=
##   .. cols(
##   ..   `ISO country code` = col_character(),
##   ..   Country = col_character(),
##   ..   `Sub-national region` = col_character(),
##   ..   `World region` = col_character(),
##   ..   `MPI National` = col_double(),
##   ..   `MPI Regional` = col_double(),
##   ..   `Headcount Ratio Regional` = col_double(),
##   ..   `Intensity of deprivation Regional` = col_double()
##   .. )
##  - attr(*, "problems")=<externalptr>

Se trata de un dataset que contiene 984 entradas o filas, y 8 atributos o columnas. Los datos corresponden a Medidas de pobreza publicado por “Oxford Poverty & Human Development Initiative”. Resulta necesario para comprender algunos atributos, conocer del Índice de Pobreza Multidimensional, IPM o MPI. El cual es una medida internacional de pobreza multidimensional aguda que cubre más de 100 países en desarrollo. Dichos atributos son:

  • ISO country code
    • Descripción: ID unívoco para los países.
    • Tipo de dato: chr.
  • Country
    • Descripción: Nombre del país.
    • Tipo de dato: chr.
  • Sub-national region
    • Descripción: Región dentro del país.
    • Tipo de dato: chr.
  • World region
    • Descripción: Región global.
    • Tipo de dato: chr.
  • MPI National
    • Descripción: Puntuación global global del MPI nacional.
    • Tipo de dato: num.
  • MPI Regional
    • Descripción: Índice de pobreza multidimensional.
    • Tipo de dato: num.
  • Headcount Ratio Regional
    • Descripción: Tasa de recuento de la pobreza (% de la población catalogada como pobre).
    • Tipo de dato: num.
  • Intensity of deprivation Regional
    • Descripción: Distancia promedio por debajo de la línea de pobreza de los que figuran como pobres.
    • Tipo de dato: num.

b. Represente gráficamente la cantidad de ciudades agrupadas por región.

2. Medidas de posición:

Calcule las medidas de posición para los atributos numéricos y agrupe los cálculos de acuerdo a la región.

a. Ordene los resultados del MPI resultante y concluya al respecto.

Media Aritmética, Mediana y Moda ordenada por región mundial, del MPI Nacional:

## # A tibble: 6 × 4
##   Region                      `Media Aritmetica` Mediana   Moda
##   <chr>                                    <dbl>   <dbl>  <dbl>
## 1 Arab States                             0.111    0.045 0.0140
## 2 East Asia and the Pacific               0.124    0.1   0.066 
## 3 Europe and Central Asia                 0.0289   0.008 0.008 
## 4 Latin America and Caribbean             0.0543   0.034 0.072 
## 5 South Asia                              0.209    0.196 0.295 
## 6 Sub-Saharan Africa                      0.332    0.307 0.303

Medidas poblacionales del MPI Nacional:

##   Media.Aritmetica Mediana  Moda
## 1        0.2041067   0.174 0.066

Media Aritmetica, Mediana y Moda ordenada por región mundial, del MPI Regional:

## # A tibble: 6 × 4
##   Region                      `Media Aritmetica` Mediana  Moda
##   <chr>                                    <dbl>   <dbl> <dbl>
## 1 Arab States                             0.115   0.052  0.006
## 2 East Asia and the Pacific               0.136   0.0995 0.053
## 3 Europe and Central Asia                 0.0253  0.016  0.021
## 4 Latin America and Caribbean             0.0637  0.0375 0.03 
## 5 South Asia                              0.220   0.199  0.294
## 6 Sub-Saharan Africa                      0.337   0.333  0.292

Medidas poblacionales del MPI Regional:

##   Media.Aritmetica Mediana  Moda
## 1        0.2113303   0.155 0.006

Media Aritmetica, Mediana y Moda ordenada por región mundial, del Headcount Ratio Regional o porcentaje de gente pobre según el MPI Regional:

## # A tibble: 6 × 4
##   Region                      `Media Aritmetica` Mediana  Moda
##   <chr>                                    <dbl>   <dbl> <dbl>
## 1 Arab States                              23.1    12.5    2.2
## 2 East Asia and the Pacific                28.3    23     13.4
## 3 Europe and Central Asia                   6.43    4.1    6.1
## 4 Latin America and Caribbean              14.2     8.95   1.4
## 5 South Asia                               44.1    45.2   65.1
## 6 Sub-Saharan Africa                       61.5    66.6   72

Medidas poblacionales del Headcount Ratio Regional:

##   Media.Aritmetica Mediana Moda
## 1         40.18445   33.95  6.5

Media Aritmetica, Mediana y Moda ordenada por región mundial, del Intensity of Deprivation Regional o distancia promedio a la que se encuentra la gente pobre respecto de la línea de pobreza:

##                        Region Media Aritmetica Mediana Moda
## 1                 Arab States         42.65391    40.6 40.6
## 2   East Asia and the Pacific         45.60156    44.7 42.7
## 3     Europe and Central Asia         37.08182    36.0 33.3
## 4 Latin America and Caribbean         41.53871    41.4 39.8
## 5                  South Asia         47.63951    46.6 48.1
## 6          Sub-Saharan Africa         51.87030    50.4 47.3

Medidas poblacionales del Intensity of Deprivation Regional:

##   Media.Aritmetica Mediana Moda
## 1         47.18098    45.6 41.9

CONCLUSIONES:

  • En el MPI Nacional, las únicas 2 regiones que se encuentran por debajo de la media poblacional son Arab States y East Asia and the Pacific.

  • Cuando se trata del MPI Regional, South Asia y Sub-Saharan Africa se encuentran por encima de la media poblacional.

  • En el caso del atributo Headcount Ratio Regional, al igual que en el anterior, South Asia y Sub-Saharan Africa superan el valor de la media poblacional.

  • Evaluando la columna Intensity of Deprivation Regional, de igual manera que en los dos anteriores, South Asia y Sub-Saharan Africa, superan el valor de la media poblacional.

  • Resumiendo, South Asia y Sub-Saharan Africa, en ninguna medida de posición, están por debajo de la media poblacional. Aunque Sub-Saharan Africa supera siempre mucho más holgadamente el valor de la media poblacional que en South Asia.

b. Grafique las variables y observe su comportamiento.

OBSERVACIONES:

  • El histograma de MPI Nacional y MPI Regional se asemejan a una distribución geométrica.
  • Por último, el histograma de Intensity of deprivation Regional, se parece a una distribución normal asimétrica hacia la derecha.

3. Medidas de dispersión:

Calcular la desviación estándar, la varianza y el rango para cada una de las variables.

a. Realice diagramas de cajas y scatterplot’s. Documente las conclusiones.

CONCLUSIONES:

  • El MPI National posee la menor desviación estándar, y el atributo Headcount Ratio Regional la mayor desviación.
  • Asimismo, los atributos mencionados anteriormente, poseen la menor y la mayor varianza respectivamente.
  • Además, en cuanto al rango, el MPI National posee el rango más acotado de todos los atributos, y el Headcount Ratio Regional el mayor.
  • Dichas observaciones se ven reflejadas en los diagramas de cajas, se puede observar en el diagrama de MPI National, la reducida amplitud de los “bigotes”, como también, la pequeña cantidad de valores atípicos o outliers. Pero sin embargo en el correspondiente al Headcount Ratio Regional, la amplitud de los bigotes, y la cantidad de outliers son las mayores de todos los gráficos.
  • Se observa una correspondencia entre el MPI Regional y el Headcount Ratio Regional.
  • Además, se observan correspondencias no tan definidas como la comentada anteriormente, entre el MPI Regional y el Intensity of deprivation Regional, y entre el Headcount Ratio Regional y Intensity of deprivation Regional.

b. ¿Qué variable es la que presenta mayor dispersión? Tenga en cuenta que cada variable puede estar expresada en diferentes unidades y magnitudes.

La variable que presenta mayor dispersión es Headcount Ratio Regional o Porcentaje de gente pobre. Tal como se comentó en conclusiones anteriores, dicha columna presenta el mayor Desvío Estándar, Rango y Varianza.

4. Medidas de asociación:

Calcular el coeficiente de correlación de todas las variables y explique el resultado. ¿Qué tipo de gráficos describen mejor esta relación entre las variables?

## [1] 0.8591325
## [1] 0.8555896
## [1] 0.8136333
## [1] 0.9839779
## [1] 0.9446785
## [1] 0.9029842

CONCLUSIONES: